data cleaning:数据清洗;指对原始数据进行纠错、去重、补全缺失、统一格式、处理异常值等操作,以提升数据质量,便于后续分析、建模或可视化。(也常称 data cleansing。)
/ˈdeɪtə ˈkliːnɪŋ/
Data cleaning takes time, but it prevents mistakes.
数据清洗很花时间,但它能避免错误。
Before building the model, the team performed data cleaning to remove duplicates, standardize date formats, and handle missing values.
在建立模型之前,团队先进行了数据清洗:删除重复记录、统一日期格式,并处理缺失值。
data 源自拉丁语 datum(“给出的东西;事实/资料”的单数),后来 data 作为复数形式在英语中广泛表示“数据”。cleaning 来自 clean(清洁)加上 -ing,表示“清理/清洁的过程”。合在一起,data cleaning 比喻性地把“清理脏污”用在“清理数据中的问题”上,是数据分析与数据库领域常见术语,20世纪后期随着信息系统与统计计算普及而更固定化。